恶意软件是对计算机系统的主要威胁,并对网络安全构成了许多挑战。有针对性的威胁(例如勒索软件)每年造成数百万美元的损失。恶意软件感染的不断增加一直激励流行抗病毒(AV)制定专用的检测策略,其中包括精心制作的机器学习(ML)管道。但是,恶意软件开发人员不断地将样品的功能更改为绕过检测。恶意软件样品的这种恒定演变导致数据分布(即概念漂移)直接影响ML模型检测率,这是大多数文献工作中未考虑的。在这项工作中,我们评估了两个Android数据集的概念漂移对恶意软件分类器的影响:DREBIN(约130k应用程序)和Androzoo(约350K应用程序)的子集。我们使用这些数据集训练自适应随机森林(ARF)分类器以及随机梯度下降(SGD)分类器。我们还使用其Virustotal提交时间戳订购了所有数据集样品,然后使用两种算法(Word2Vec和tf-idf)从其文本属性中提取功能。然后,我们进行了实验,以比较两个特征提取器,分类器以及四个漂移检测器(DDM,EDDM,ADWIN和KSWIN),以确定真实环境的最佳方法。最后,我们比较一些减轻概念漂移的可能方法,并提出了一种新的数据流管道,该管道同时更新分类器和特征提取器。为此,我们通过(i)对9年来收集的恶意软件样本进行了纵向评估(2009- 2018年),(ii)审查概念漂移检测算法以证明其普遍性,(iii)比较不同的ML方法来减轻此问题,(iv)提出了超过文献方法的ML数据流管道。
translated by 谷歌翻译
通常,机器学习应用程序必须应对动态环境,其中数据以潜在无限长度和瞬态行为的连续数据流的形式收集。与传统(批量)数据挖掘相比,流处理算法对计算资源和对数据演进的适应性具有额外要求。它们必须逐步处理实例,因为数据的连续流量禁止存储多次通过的数据。合奏学习在这种情况下取​​得了显着的预测性能。实现为一组(几个)个别分类器,合奏是自然可用于任务并行性的。但是,用于捕获概念漂移的增量学习和动态数据结构增加了缓存未命中并阻碍了并行性的好处。本文提出了一种迷你批处理策略,可以改善多核环境中用于流挖掘的多个集合算法的内存访问局部性和性能。借助正式框架,我们证明迷你批量可以显着降低重用距离(以及缓存未命中的数量)。在六种不同的最先进的集合算法上应用四个基准数据集的六种不同特性的实验显示了8个核心处理器上高达5倍的加速。这些效益牺牲了预测性能的少量减少。
translated by 谷歌翻译
Stress has a great effect on people's lives that can not be understated. While it can be good, since it helps humans to adapt to new and different situations, it can also be harmful when not dealt with properly, leading to chronic stress. The objective of this paper is developing a stress monitoring solution, that can be used in real life, while being able to tackle this challenge in a positive way. The SMILE data set was provided to team Anxolotl, and all it was needed was to develop a robust model. We developed a supervised learning model for classification in Python, presenting the final result of 64.1% in accuracy and a f1-score of 54.96%. The resulting solution stood the robustness test, presenting low variation between runs, which was a major point for it's possible integration in the Anxolotl app in the future.
translated by 谷歌翻译
The recent emergence of new algorithms for permuting models into functionally equivalent regions of the solution space has shed some light on the complexity of error surfaces, and some promising properties like mode connectivity. However, finding the right permutation is challenging, and current optimization techniques are not differentiable, which makes it difficult to integrate into a gradient-based optimization, and often leads to sub-optimal solutions. In this paper, we propose a Sinkhorn re-basin network with the ability to obtain the transportation plan that better suits a given objective. Unlike the current state-of-art, our method is differentiable and, therefore, easy to adapt to any task within the deep learning domain. Furthermore, we show the advantage of our re-basin method by proposing a new cost function that allows performing incremental learning by exploiting the linear mode connectivity property. The benefit of our method is compared against similar approaches from the literature, under several conditions for both optimal transport finding and linear mode connectivity. The effectiveness of our continual learning method based on re-basin is also shown for several common benchmark datasets, providing experimental results that are competitive with state-of-art results from the literature.
translated by 谷歌翻译
The Elo algorithm, due to its simplicity, is widely used for rating in sports competitions as well as in other applications where the rating/ranking is a useful tool for predicting future results. However, despite its widespread use, a detailed understanding of the convergence properties of the Elo algorithm is still lacking. Aiming to fill this gap, this paper presents a comprehensive (stochastic) analysis of the Elo algorithm, considering round-robin (one-on-one) competitions. Specifically, analytical expressions are derived characterizing the behavior/evolution of the skills and of important performance metrics. Then, taking into account the relationship between the behavior of the algorithm and the step-size value, which is a hyperparameter that can be controlled, some design guidelines as well as discussions about the performance of the algorithm are provided. To illustrate the applicability of the theoretical findings, experimental results are shown, corroborating the very good match between analytical predictions and those obtained from the algorithm using real-world data (from the Italian SuperLega, Volleyball League).
translated by 谷歌翻译
在智能的建筑管理中,了解房间的人数及其位置对于更好地控制其照明,通风和供暖,并以降低的成本和改善的舒适度很重要。这通常是通过使用安装在房间天花板上的紧凑型嵌入式设备并集成低分辨率红外摄像机的人员来实现的,从而掩盖了每个人的身份。但是,为了准确检测,最新的深度学习模型仍然需要使用大量注释的图像数据集进行监督培训。在本文中,我们研究了适用于基于低分辨率红外图像的人检测的具有成本效益的方法。结果表明,对于此类图像,我们可以减少监督和计算的量,同时仍然达到高水平的检测准确性。从需要图像中每个人的边界框注释的单杆探测器,到仅依靠不包含人的未标记图像的自动编码器,可以在注释成本方面节省大量,以及计算较低的模型费用。我们在具有低分辨率红外图像的两个具有挑战性的顶级数据集上验证了这些实验发现。
translated by 谷歌翻译
近年来,深入的强化学习(RL)在各种组合搜索领域(例如两人游戏和科学发现)中都取得了成功。但是,直接在计划域中应用深度RL仍然具有挑战性。一个主要的困难是,如果没有人工制作的启发式功能,奖励信号除非学习框架发现任何解决方案计划,否则奖励信号将保持零。随着计划的最小长度的增长,搜索空间变为\ emph {指数更大},这是计划实例的严重限制,该实例的计划最小计划长度为数百到数千步。以前的学习框架可以增强使用深神经网络和额外生成的子观念的图形搜索在各种具有挑战性的计划域中取得了成功。但是,生成有用的子目标需要广泛的领域知识。我们提出了一种独立于域的方法,该方法可以通过图值迭代来增强图形搜索,以求解针对域特有的求解器无法实现的硬计划实例。特别是,我们的方法还没有仅从发现的计划中获得学习信号,而是从未达到目标状态的失败尝试中学习。图值迭代组件可以利用本地搜索空间的图形结构并提供更有信息的学习信号。我们还展示了如何使用课程策略来平滑学习过程并对图形值迭代量表的完整分析并实现学习。
translated by 谷歌翻译
序数模式的统计分析的最终目的是表征它们诱导的特征的分布。特别是,了解大类时间序列模型的对熵统计复杂性的联合分布将允许迄今无法获得的统计测试。在这个方向上工作,我们表征了Shannon经验的渐进分布,用于任何模型,在此模型中,真正的归一化熵既不为零也不为零。我们从中心极限定理(假设大时间序列),多元增量方法和其平均值的三阶校正获得了渐近分布。我们讨论了其他结果(精确,一阶和二阶校正)有关其准确性和数值稳定性的适用性。在建立有关香农熵的测试统计数据的一般框架内,我们提出了双边测试,该测试验证是否有足够的证据拒绝以下假设,即两个信号产生了具有相同Shannon熵的顺序模式。我们将此双边测试应用于来自三个城市(都柏林,爱丁堡和迈阿密)的每日最高温度时间序列,并获得了明智的结果。
translated by 谷歌翻译
上下文:如今提供的电视连续剧数量很高。由于其大量数量,由于缺乏独创性,许多系列被取消了。问题:拥有一个决策支持系统,可以说明为什么某些节目取得了巨大的成功,或者不促进续签或开始演出的选择。解决方案:我们研究了由CW网络广播的系列箭头的情况,并使用了描述性和预测性建模技术来预测IMDB额定值。我们假设该情节的主题会影响用户的评估,因此数据集仅由该情节的导演,该情节所获得的评论数量,这是由潜在的Dirichlet分配提取的每个主题的百分比(LDA)的数量。情节的模型,来自Wikipedia的观众数量和IMDB的评分。 LDA模型是由单词组成的文档集合的生成概率模型。方法:在这项规范性研究中,使用了案例研究方法,并使用定量方法分析了结果。结果摘要:每个情节的特征,最能预测评分的模型是由于KNN模型的类似平方误差,但在测试阶段的标准偏差更好。可以用可接受的均方根误差为0.55预测IMDB评级。
translated by 谷歌翻译
法律判决预测是NLP,AI和法律联合领域最受欢迎的领域之一。通过法律预测,我们是指能够预测特定司法特征的智能系统,例如司法结果,司法阶级,可以预测特定案例。在这项研究中,我们使用AI分类器来预测巴西法律体系中的司法结果。为此,我们开发了一个文本爬网,以从巴西官方电子法律系统中提取数据。这些文本构成了二级谋杀和主动腐败案件的数据集。我们应用了不同的分类器,例如支持向量机和神经网络,通过分析数据集中的文本功能来预测司法结果。我们的研究表明,回归树,封闭的重复单元和分层注意力网络给出了不同子集的较高指标。作为最终目标,我们探讨了一种算法的权重,即分层注意力网络,以找到用于免除或定罪被告的最重要词的样本。
translated by 谷歌翻译